Indexation des documents XML : Un DataGuide annoté avec un index de contenu

نویسندگان

  • Fouad Dahak
  • Mohand Boughanem
  • Amar Balla
چکیده

Indexing in classical information retrieval brings few tools for the treatment of the semi-structured documents: the representations of documents in information retrieval were conceived for flat and homogeneous documents. They are not adapted to the simultaneous treatment of the structure and the contents. Several approaches of indexing semi-structured data was proposed to resolve this new challenge which the most known is DataGuide. This paper presents a new approach of indexing semi-structured documents based on DataGuide allowing the conciliation between content and structure due to a virtual link which is not being a part of the index but built only at the time of the indexation and the

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Modèle de recherche d'information structurée basé sur la relaxation de requêtes

RÉSUMÉ. Cet article présente un modèle pour la recherche d’information sur des documents XML basée sur la comparaison d’arbres, en utilisant le principe de relaxation de requêtes. Les requêtes et les documents sont représentés par des arbres étendus. Un arbre étendu est construit à partir de l’arbre original, avec la pondération des liens virtuels entre chaque nœud et ses descendants indirects,...

متن کامل

Analyse multidimensionnelle de documents via des dimensions OLAP

RÉSUMÉ. Avec l’émergence de formats de données semi-structurés (tels que XML), le stockage de documents dans un entrepôt centralisé est apparu de façon naturelle comme une adaptation des entrepôts de données. De nos jours, les systèmes OLAP (On-Line Analytical Processing) font face à une part grandissante de données non numériques. Cet article présente un environnement pour l’analyse multidimen...

متن کامل

Classification de documents combinant la structure et le contenu

RÉSUMÉ. La démocratisation et l’évolution des logiciels de traitements de texte ont révolutionné le monde du document. Les auteurs construisent des documents dits structurés c'est-à-dire dont le contenu textuel s’organise autours de balises. Toutefois, la classification traditionnelle de documents n’utilise que le contenu textuel des documents et ignore les informations de structure. Dans ce pa...

متن کامل

Expériences de classification d'une collection de documents XML de structure homogène

Résumé. Cet article présente différentes expériences de classification de documents XML de structure homogène, en vue d’expliquer et de valider une présentation organisationnelle pré-existante. Le problème concerne le choix des éléments et mots utilisés pour la classification et son impact sur la typologie induite. Pour cela nous combinons une sélection structurelle basée sur la nature des élém...

متن کامل

Indexation de photos géoréférencées à l'aide du web participatif

RÉSUMÉ. La démocratisation des appareils photo numériques et l’intégration de capteurs numériques dans les téléphones mobiles permettent à chacun de prendre de nombreuses photos. Or, des plateformes de partage de photos, telles que Panoramio et Flickr, offrent la possibilité de les stocker, de les étiqueter avec des tags et de les partager. Ainsi, plus de 4 millions de photos sont publiées sur ...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2008